Modelos geoestadísticos y procesos espaciales.

Modelo Espacial autoregresivo (SAR)

Nelson Alirio Cruz

Universidad Nacional de Colombia

Bloque 1: Clase para pregrado

Introducción a la autocorrelación

Concepto: la autocorrelación refleja que valores cercanos espacial o temporalmente tienden a ser similares.

  • Temporal: precios de acciones, temperatura diaria,

  • Espacial: deforestación, crimen por vecindario.

DataCovariates <- read_excel("DataCovariates.xlsx")
gini <- read_excel("Distribution.xlsx")
DataTotal <-merge(gini, y=DataCovariates, 
                        by.x="CODMUNI", by.y="Divipola", all.x=TRUE, all.y = TRUE)

mapColombia <-read_sf("Shape/Municipios_desercion.shp", , options = "ENCODING=UTF8") # 380 units

DataTotal <- merge(x=mapColombia, y=DataTotal, 
                    by.x="mpio_cdpmp", by.y="CODMUNI", all.x=TRUE)

Índice de Gini en Colombia

Autoregresión temporal vs espacial

Aspecto AR temporal AR espacial
Variable dependiente \(y_t\) \(y_i\)
Dependencia Tiempos anteriores: \(y_{t-1}, \ldots, y_{1}\) Vecinos \(y_1, \ldots, y_{i-1}, y_{i+1}, \ldots, y_n\)
Fórmula básica \(y_t = \sum_{j=1}^p \phi_j y_{t-j} + \epsilon_t\) \(y_i = \rho\sum_{j=1}^n w_{ij}\times y_j + \epsilon_j\)
Interpretación Persistencia temporal Dependencia entre ubicaciones
Parámetros estructurales Elección de \(p\) Elección de \(w_{ij}\)

Matriz de pesos \(\mathbf{W}\)

\[ \mathbf{W}=\begin{pmatrix} 0 & w_{12} & w_{13} & \cdots &w_{1n}\\ w_{21} & 0 & w_{23} & \cdots &w_{2n}\\ w_{31} & w_{32} & 0 &\cdots &w_{1n}\\ \vdots& \vdots & \vdots & \ddots &\vdots\\ w_{n1} & w_{n2} & w_{n3} & \cdots &0\\ \end{pmatrix} \]

Vecinos

Define qué observaciones son “vecinas”. Algunos ejemplos pueden ser:

  • Binaria: \(w_{ij} = 1\) si \(i\) y \(j\) son vecinos

  • Inversa a distancia: \(w_{ij} = 1/d_{ij}\)

Normalización: \(\sum_{i=1}^n w_{ij}=1\) facilita interpretación de \(\rho\)

Modelo SAR básico

\[ \mathbf{y} = \rho \pmb{W} \mathbf{y} + \mathbf{X}\boldsymbol{\beta} +\boldsymbol{\epsilon} \]

Donde \(\mathbf{y}\) es el vector \(n \times 1\) de las variables dependientes de interés, \(\mathbf{X}\) es una matriz \(n \times k\) de variables explicativas con coeficientes asociados \(\boldsymbol{\beta}\)

Es un modelo lineal “clásico”

\[ \mathbf{y}-\rho \pmb{W} \mathbf{y} = \mathbf{X}\boldsymbol{\beta} +\boldsymbol{\epsilon} \]

\[ \mathbf{Ay} = \mathbf{X}\boldsymbol{\beta} +\boldsymbol{\epsilon} \]

\[ \mathbf{y} = \mathbf{A}^{-1}\mathbf{X}\boldsymbol{\beta} +\mathbf{A}^{-1}\boldsymbol{\epsilon} \]

Tarea

Demuestra que si \(\vert \rho \vert<1\) entonces \(\mathbf{A}^{-1}=\sum_{j=0}^\infty \rho^j\mathbf{W}^j\)

Estimación

Para obtener la función de verosimilitud:

  • La varianza de \(\mathbf{y}=\sigma^2\mathbf{A}^{-1}(\mathbf{A}^{-1})^\top\)

  • El termino \(\pmb{\epsilon}= \mathbf{Ay} - \mathbf{X}\boldsymbol{\beta}\) nos permite construir la verosimilitud.

    \[ L(\pmb{\beta}, \rho, \sigma^2)=(2\pi)^{-\frac{n}{2}}\vert \mathbf{A}\vert\exp\left(-\frac{1}{2}\pmb{\epsilon}^\top\pmb{\epsilon} \right) \]

    \[ \ell(\pmb{\beta}, \rho, \sigma^2)=-\frac{n}{2}\ln(2\pi)+\ln\vert \mathbf{A}\vert-\frac{1}{2}\pmb{\epsilon}^\top\pmb{\epsilon} \]

    \[ \frac{\partial{\ell}}{\partial\boldsymbol{\beta}}=\pmb{\epsilon}^{\top}\mathbf{X}, \; \frac{\partial{\ell}}{\partial\rho}=-\mbox{tr} (\mathbf{A}^{-1} \mathbf{W})+\pmb{\epsilon}^{\top}\mathbf{W} \mathbf{y} \]

Estimación

OLS

\(\hat{\pmb{\beta}}\) es un estimador de mínimos cuadrados “ordinarios” si \(\rho\) es conocido.

\[ \hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\top}\mathbf{X}\right)^{-1}\mathbf{X}^{\top}\mathbf{A}\mathbf{y} \]

\(\rho\)

Para estimar \(\rho\) no se tiene una solución exacta, pero se puede obtar por dos metodos:

  1. Scoring Fisher: \(\mathcal{I}_{{\rho}{\rho}}=\text{tr}(\mathbf{A}^{-1}\mathbf{W})^2+\text{tr}(\mathbf{W}\mathbf{A} ^{-1})^\top(\mathbf{W}\mathbf{A}^{-1})+(\mathbf{W}\mathbf{A}^{-1}\mathbf{X}\boldsymbol{\beta})(\mathbf{W}\mathbf{A}^{-1}\mathbf{X}\boldsymbol{\beta})\)
  2. Máximización directa \(\hat{\rho}=\mbox{argmax}_{\rho\in(-1,1)}\left(\ln\vert \mathbf{A}\vert-\frac{1}{2}\pmb{\epsilon}^\top\pmb{\epsilon}\right)\)

Tarea

Demuestra \(\mathcal{I}_{{\rho}{\rho}}\) está bien calculada, además que es positiva.

Propiedades de los estimadores

MLE

library(spatialreg)
library(sphet)
library(spatemR)

Precaución

Sí la linealidad no se cumple, “habemus problemas”

Índice de GINI en Colombia

Test de Moran

¿Existe correlación entre el índice de Gini de los municipios de Colombia? El índice de Moran se define como:

\[ I = \frac{n}{W_0 = \sum_{i=1}^n \sum_{j=1}^n w_{ij}} \frac{\sum_{i=1}^n \sum_{j=1}^n w_{ij}(y_i-\bar{y})(y_j-\bar{y})}{\sum_{i=1}^n (y_i-\bar{y})^2} \]

cont.nb <- poly2nb(DataComplete)    
wt1 <- nb2mat(cont.nb, zero.policy = TRUE)
cont.listw <- nb2listw(cont.nb, style="W",zero.policy=T)
moran.test(DataComplete$GINI, cont.listw)

    Moran I test under randomisation

data:  DataComplete$GINI  
weights: cont.listw  
n reduced by no-neighbour observations  

Moran I statistic standard deviate = 25.887, p-value < 2.2e-16
alternative hypothesis: greater
sample estimates:
Moran I statistic       Expectation          Variance 
     0.4821327991     -0.0009416196      0.0003482296 

I de Moran

Modelo SAR

Tip

\(\mathbf{X}\): \(X_1\): un índice asociado al uso adecuado del suelo rural, \(X_2\): un índice de competitividad, \(X_3\): un índice de productividad, \(X_4\): el índice de fortaleza institucional, y \(X_5\): la tasa de homicidios por cada 100.000 habitantes.

HomSARAR <- lagsarlm(GINI~X1+X2+X3+X4+X5,
                     data=DataComplete,
                     listw =cont.listw,
                     zero.policy = T, )
summary(HomSARAR)

Call:lagsarlm(formula = GINI ~ X1 + X2 + X3 + X4 + X5, data = DataComplete, 
    listw = cont.listw, zero.policy = T)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.386793 -0.044820  0.001196  0.044232  0.363880 

Type: lag 
Regions with no neighbours included:
 48 52 1056 1057 1064 
Coefficients: (asymptotic standard errors) 
              Estimate Std. Error z value  Pr(>|z|)
(Intercept) 3.1616e-01 2.1750e-02 14.5360 < 2.2e-16
X1          1.5794e-04 1.0652e-04  1.4828 0.1381207
X2          6.6176e-04 1.6934e-04  3.9079 9.311e-05
X3          2.3087e-03 2.2543e-04 10.2411 < 2.2e-16
X4          1.2595e-03 3.3620e-04  3.7464 0.0001794
X5          7.7680e-05 6.3971e-05  1.2143 0.2246350

Rho: 0.44054, LR test value: 268.94, p-value: < 2.22e-16
Asymptotic standard error: 0.026989
    z-value: 16.323, p-value: < 2.22e-16
Wald statistic: 266.44, p-value: < 2.22e-16

Log likelihood: 1250.187 for lag model
ML residual variance (sigma squared): 0.0054194, (sigma: 0.073616)
Number of observations: 1068 
Number of parameters estimated: 8 
AIC: -2484.4, (AIC for lm: -2217.4)
LM test for residual autocorrelation
test value: 62.39, p-value: 2.7756e-15

Siguiente clase

  • Análisis de los coeficientes de cada covariable \(X_j\).

  • Criterios de diagnóstico del modelo, residuales y AIC.

  • Predicción de valores fuera de la muestra.

  • Estimación robusta de \(\rho\) con la metodología de Kelejian y Prucha (2010).

Bloque 2: Plan Docente

Formación básica

Fundamentación

  • Básica y transversal: Estadística descriptiva, probabilidad para ingeniería, ciencias y sociales.

  • Fundamentos teóricos: Probabilidad y estadística en pregrado de estadística y matemáticas.

  • Aplicaciones: Muestreo y análisis de datos en biología y ciencias agrícolas.

  • Enfoque pedagógico: Rigor teórico + aplicaciones prácticas; metodologías activas y proyectos interdisciplinarios.

Soporte

  • He dictado clases en diferentes programas de pregrado en la Universidad Nacional de Colombia, la Universitat de les Illes Balears y otras instituciones, fortaleciendo tanto la formación básica como la avanzada en estadística.
  • He acompañado la dirección de trabajos de grado en áreas de matemáticas, estadística e ingeniería

Áreas avanzadas

Estadística avanzada

  • Diseño experimental para programas de estadística y áreas afines (agronomía, biología, ingeniería).

  • Estadística experimental y validación de escalas en maestría y especialización, con aplicaciones a problemáticas nacionales como Tuberculosis, seguridad y salud en el trabajo y enfermedades de transmisión sexual.

  • Aprendizaje de máquina y modelado en la nube, orientado a grandes volúmenes de datos y procesos de predicción.

  • Énfasis en el desarrollo de competencias analíticas sólidas, combinando teoría rigurosa con aplicaciones prácticas e interdisciplinarias.

Soporte

  • He dictado cursos en diversas maestrías y programas de posgrado en estadística y áreas afines.

  • He impartido formación especializada para corporaciones bancarias y otras instituciones del sector productivo.

  • He trabajado como consultor en el ICFES, en CALA y en otras entidades nacionales e internacionales.

Recursos didácticos

Adicionalmente

Importante

  • Coordiné durante un año la Maestría en Analítica de Datos de la Universidad Central, siendo uno de sus creadores.

  • He asesorado varias tesis en la Universidad como estadístico, apoyando investigación académica en distintas áreas.

  • Competencia multilingüe, lo que permite enseñar a estudiantes de distintos países o en programas internacionales.

  • Flexibilidad docente, adaptando contenidos y ejemplos según el idioma y contexto cultural.

  • Mayor alcance y visibilidad académica, especialmente para cursos de posgrado o colaboraciones internacionales.

  • He dirigido tesis de maestría en áreas diversas articulando investigación académica con problemáticas reales.

Bloque 2: Plan Investigativo

Tema y contexto

  • Tema: Modelación espacio-temporal de la deforestación municipal en Colombia

  • Enfoque: Estadístico robusto, econometría espacial y GAMLSS

  • Contexto: fenómeno multicausal, necesidad de análisis a nivel municipal

    Avances

    • Trabajo teórico avanzado con articulos publicados y preprints en el área. Toloza-Delgado, Melo, y Cruz (2025), Azcarate-Romero et al. (2025)

    • Software Estadístico, con un paquete en R spatemR

    • Un preprint con pronóstico de datos faltantes espaciales Tobar et al. (2025).

Preguntas de investigación

Nota

  • ¿Cómo se distribuye espacial y temporalmente la deforestación?

  • ¿Qué factores socioeconómicos e institucionales la explican?

  • ¿Qué tan efectivos son los modelos clásicos frente a GSAR/GAMLSS?

  • ¿Cómo manejar heterocedasticidad, no normalidad y correlación espacio-temporal?

Avances

  • Un preprint de estadística espacio temporal en revisión Cruz, Romero, y Melo (2025).

  • Una tesis de maestría dirigida sobre el tema en la Universidad Central, Desarrollo de un modelo predictivo con técnicas de inteligencia artificial que permita la identificación de municipios en riesgo de deforestación mediante la incorporación de variables socioeconómicas espaciales

Objetivo general

Objetivo

Desarrollar e implementar modelos estadísticos espacio-temporales robustos que permitan evaluar, explicar y predecir la deforestación municipal en Colombia, integrando metodologías avanzadas de econometría espacial y modelamiento estadístico.

  1. Integración de fuentes de datos:
    • Cobertura boscosa anual (IDEAM), Factores de presión: agroindustria, cultivos ilícitos, vías
    • Variables socioeconómicas: población rural, minería, conflictos, Información climática y presupuestal (CHIRPS, DANE, SECOP)
  2. Modelamiento espacio-temporal:
    • SAR y SEM clásicos, SAR heterocedástico (GAMLSS)
    • GSAR para conteos y proporciones no normales, Modelos semiparamétricos tipo GEE

Validación, resultados y plan de trabajo

  • Validación cruzada espacial y comparación de escenarios
  • Resultados esperados:
    • Mapas de riesgo municipal
    • Predicciones con incertidumbre
    • Paquete en R y publicaciones científicas
  • Plan de trabajo anual:
    • Año 1: Recolección y análisis de datos
    • Año 2: Desarrollo de modelos y validación
    • Año 3: Difusión, mapas de riesgo y transferencia tecnológica
  • Pertinencia institucional: integración docencia-investigación y fortalecimiento de estadística aplicada

Bloque 3: Proyección misional

Contribución a los fines misionales

  1. Contribuir a la unidad nacional y su vinculación internacional
    • Mis proyectos sobre deforestación municipal generan conocimiento que puede ser aplicado en políticas públicas nacionales e integrarse en redes internacionales de investigación ambiental.
  2. Crear y asimilar críticamente el conocimiento
    • Desarrollo de modelos SAR, GAMLSS y GSAR para análisis espacial avanzado, generando nuevo conocimiento metodológico aplicable a problemas reales de Colombia.

Contribución a los fines misionales

  1. Formar profesionales e investigadores con conciencia crítica
    • Integración de teoría estadística, programación y análisis reproducible en pregrado y posgrado.
    • Preparación de estudiantes para liderar investigaciones y proyectos de política ambiental.
  2. Estudiar y enriquecer el patrimonio natural y contribuir a su conservación
    • Análisis espacial de deforestación que permite identificar zonas críticas y generar mapas de riesgo para la toma de decisiones ambientales.

Contribución a los fines misionales

  1. Propender por el desarrollo personal y académico de la comunidad
    • Uso de metodologías activas, software libre y recursos abiertos para fortalecer capacidades analíticas y de investigación en estudiantes.
  2. Apoyo a la sociedad y al Estado
    • Generación de herramientas estadísticas y mapas de riesgo que sirven para asesoría en políticas públicas y toma de decisiones en gestión ambiental.
  3. Fomentar la interdisciplinariedad y la cooperación
    • Vinculación de estudiantes y grupos de investigación con proyectos interinstitucionales y redes académicas internacionales en estadística aplicada y medio ambiente.

Bibliografía

Azcarate-Romero, J. S., J. D. Toloza-Delgado, N. A. Cruz Gutierrez, y P. A. Mahecha. 2025. «Urban Spatial Analysis of the Profitability of Housing Rental in Bogotá». International Journal of Housing Markets and Analysis, agosto. https://doi.org/10.1108/ijhma-04-2025-0085.
Bivand, Roger, Giovanni Millo, y Gianfranco Piras. 2021b. «A Review of Software for Spatial Econometrics in R» 9. https://doi.org/10.3390/math9111276.
———. 2021a. «A Review of Software for Spatial Econometrics in R» 9. https://doi.org/10.3390/math9111276.
Cruz Gutierrez, Nelson Alirio, Oscar Orlando Melo, y Jurgen Toloza-Delgado. 2025. «Joint spatial modeling of mean and non-homogeneous variance combining semiparametric SAR and GAMLSS models for hedonic prices» 65: 100864. https://doi.org/10.1016/j.spasta.2024.100864.
Cruz, N. A., D. A. Romero, y O. O. Melo. 2025. «SAR models with specific spatial coefficients and heteroskedastic innovations». https://doi.org/10.48550/ARXIV.2502.15580.
Kelejian, Harry H., y Ingmar R. Prucha. 2010. «Specification and Estimation of Spatial Autoregressive Models with Autoregressive and Heteroskedastic Disturbances». Journal of Econometrics 157 (1): 53-67. https://doi.org/10.1016/j.jeconom.2009.10.025.
Lee, Lung-Fei. 2004. «Asymptotic Distributions of Quasi-Maximum Likelihood Estimators for Spatial Autoregressive Models». Econometrica 72 (6): 1899-1925. https://doi.org/10.1111/j.1468-0262.2004.00558.x.
Theory of Point Estimation. 1998. Springer-Verlag. https://doi.org/10.1007/b98854.
Tobar, A., A. Mir, R. Alberich, I. Garcia, M. Miró, y NA. Cruz. 2025. «Spatial disaggregation of time series». https://doi.org/10.48550/ARXIV.2509.04065.
Toloza-Delgado, J. D., O. O. Melo, y N. A. Cruz. 2025. «Joint Spatial Modeling of Mean and Non-Homogeneous Variance Combining Semiparametric SAR and GAMLSS Models for Hedonic Prices». Spatial Statistics 65 (marzo): 100864. https://doi.org/10.1016/j.spasta.2024.100864.